查看原文
其他

语言机器可翻译性排名助力提升 MT 效果

随着翻译需求的增加,公司要快速翻译更多内容,压力倍增,而事实证明,机器翻译 (MT) 是应对这一挑战不可或缺的利器。为确定哪种 MT 引擎能够更好地满足您的需求,势必要对 Google NMT、Bing NMT、Amazon、DeepL 和 Yandex 这几类主流 MT 引擎加以对比。事实上,我们每月都会使用我们的 MT Tracker 分析 MT 引擎的性能,该工具可以长期衡量主流 MT 引擎的表现。但评估不应浅尝辄止,特别是经过分析,我们发现这几类引擎目前的表现不分上下。
因此,为充分发挥 MT 效果,您还要考虑评估使用 MT 引擎翻译特定语言对的难易程度,即语言的机器可翻译性。为协助您比较语言难易度,我们对英语到 28 种常见目标语言的机器可翻译性进行了排名,详见表 1。





为什么要评估各语言对的机器可翻译性?
了解了语言对的机器可翻译性,就可以明确哪些语言对在翻译时需要投入更多精力,从而有助于您在规划多语种翻译成本时合理分配预算。
了解语言复杂程度能够方便您做出业务决策,同时得到以下问题的答案:
  • 语言越复杂,后期编辑的预算是否就应越高?

  • 对某些语言来说,如果预算紧张,那么轻度后期编辑或重点后期编辑(只对关键内容进行后期编辑)是否足够?哪些语言应该用到这些后期编辑方法?

  • 如果公司在考虑如何更好地分配预算,尤其是对于低预算项目,是否应该在商业和文化因素之外加上语言排名?如果一种文化可以接受质量较低的译文,而其语言的机器可翻译性排名也较低,公司是否应该采用机器翻译?





如何计算机器可翻译性?计算各语言的机器可翻译性的过程并不简单。各语言的难点不同,对于质量的标准也不尽相同。不过,我们仍可以使用一些指标进行评估。 
例如,编辑改动程度,也就是译后编辑人员为确保最终文本能达到人工翻译质量而做出的改动数量。这一指标通常被用来比较不同机器翻译引擎对同一种语言的翻译效果,但我们也可以用它来判断不同语言的复杂程度,帮助我们确定每个语言对的机器可翻译性。





Lionbridge 机器可翻译性研究结果:各语言排名如何?为何会有这样的排名?

Lionbridge 处理了数百万个句子后,得出了 28 种目标语言的机器可翻译性排名。 

研究结果表明,语言复杂程度与语系有关。 

罗曼语族

从英语译入大多数罗曼语族语言(例如葡萄牙语、西班牙语、法语、意大利语),MT 译文质量通常较好,不需要进行大量修改。我们认为这几种目标语言是机器最容易处理的语言,位列机器可翻译性排行榜前四。
值得注意的是,榜单中同属罗曼语族的罗马尼亚语,排名较为靠后,位列第十位。这一结果可能是因为下列原因:罗马尼亚语在罗曼语族中翻译量较少,因此用于训练 MT 引擎的双语训练语料库较小,另外,罗马尼亚语的语法比较复杂(罗马尼亚语的语法复杂性与拉丁语类似)。  

简体中文

简体中文与英语大相径庭,却位列榜单第五位,紧随前四种罗曼语族语言。我们认为简体中文之所以位列如此高位,是因为 MT 引擎在过去五年中不断针对此语言对进行更新和优化,我们在此期间对 MT 的持续跟踪结果也印证了这一点。由于英-中语言对的商业利益较高,因此 MT 公司对此大举投资,以改进 MT 效果。

较为复杂的语言

匈牙利语和芬兰语这两种乌拉尔语系语言则更为复杂,在我们的排名中位列末尾,分别排在第 27 位和第 28 位。同属乌尔拉语系的爱沙尼亚语位列榜单的第 24 位。 韩语的排名也较靠后,位列第 25 位。




机器可翻译性的意义
虽然语言比较的结论尚不完善,但机器可翻译性排名以及语言复杂程度和语系之间的关联性还是提供了一些耐人寻味的见解,可以帮助您更好地管理多语言项目。


表 1

语言的机器可翻译性排名



继续滑动看下一个
莱博智 Lionbridge
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存